查看原文
其他

双杀之后迎来双爆发,高性能计算HPC上云之势不可挡

Thomas 速石科技 2020-12-18



本文重点:

传统的HPC应用的特殊性与昂贵硬件和大量基础设施投入,成为高性能计算拥抱新技术、新平台的两大障碍。


随着通用计算市场逐渐饱和,刺激各大云提供商的持续投入,终于让高性能计算上云不再只是少数传统玩家的专利。


数据量和业务类型的双爆发使传统的高性能计算集群,比如超级计算中心的模式,已经很难跟上业务增长的步伐。


云端高性能计算(Cloud HPC),顾名思义,就是在云计算平台上运行高性能计算的分析任务


这个名词,包括其近义词:高性能计算云(HPC Cloud),何时开始使用并没有一个公认的说法。时至今日,在维基百科(英文)网站上也没有这么一个词条。稍微扯得上一点关系的是高性能计算 / 超级计算机词条下的一个小节:云中的高性能计算(HPC in the Cloud)


然而从去年到今年,我们真真切切地感受到了这个词要火起来的节奏。


作为标志性的事件,我们看到了这个行业的第一份市场分析研究报告:来自Market Research Future的《CloudHPC市场研究报告——及2023年预测》。

让我们一起来回顾一下Cloud HPC的发展历程,面临的挑战以及未来发展趋势。

云端高性能计算市场

(来源:Market Research Future)


传统高性能计算:专用硬件/软件库


高性能计算是计算机科学领域发展的一个特殊分支,不同于我们平常接触的通用计算。


传统上,高性能计算主要应用于大规模科学计算,例如天气预报、石油勘探、汽车碰撞模拟、药物研发等这些任务通常是通过超级计算机,或者大规模计算集群运行,通过集群内的各节点协同工作完成的。一个分析任务被分解为一系列的子任务,分布到不同的节点上运行。子任务之间经常是紧耦合的,即需要紧密合作完成分析。


因此传统的高性能计算集群通常需要很多特殊的硬件来加速节点间通:高带宽、低延时、低CPU占用率的等等。其中代表性的技术就是Infiniband和RDMA,而不是我们通常所见的以太网。


此外,为了将集群资源抽象为一个统一的资源池,从而实现高效的并行计算,大多数的高性能计算应用需要使用统一的开发库,其中最流行的解决方案就是消息传递接口(MPI)。所有的进程都必须通过开发库提供的接口进行相互通讯和数据交换。


另外,通常也需要专为高性能计算优化的存储,比如Lustre,在此就不展开了。


传统的HPC应用的并发扩展性与算法设计紧密相关,因而通常并不能线性扩展。


这些特殊性后期实际上成为了一把双刃剑,一定程度上成为高性能计算拥抱新技术、新平台的障碍。

高性能计算涉及领域(来源:ICHEC)


云计算崛起:成功?障碍?


早在十余年前,云计算刚刚起步,虚拟化大行其道的时候,就开始有热烈的讨论,是否要将虚拟化的浪潮引入高性能计算领域。当时第一个大的顾虑,就是虚拟化带来的性能损失,包括计算性能损耗和额外的网络延时等等

此外,前文提到的许多特殊硬件,也没有好的虚拟化 / 多租户方案。


最终结果:第一波冲击,生不逢时,波澜不惊。


等到以亚马逊(AWS)为代表的云计算崛起,通用云计算市场成为市场的宠儿,获得了快速发展。用户开始习惯在云计算平台上部署 / 运行各种不同类型的业务。


然而多年来通用计算业务的高速增长,一定程度上却妨碍了高性能计算在云端的布局。


为什么?

当通用计算市场需求快速增长的时候,云提供商们会满足于当前的业务,也就是所谓的“容易摘的果子”(low-hanging fruit)。像高性能计算这种需要昂贵硬件和大量基础设施投入的新型业务,自然就没有理由得到重视。


因此长期以来,云计算平台上运行的多是服务型应用;包括后来容器技术和Kubernetes的流行,也是主要服务于这一类型应用的。

计算密集型的用户们只能静待时机。



契机:通用云计算市场成熟


这两年来,随着云计算技术逐渐成熟,市场开始慢慢饱和。不管是国际还是国内市场,都已经出现了几家大厂瓜分大部分市场的情况。


通用云计算风光不再,新兴的增长点自然而然就会得到大家的青睐了;高性能计算上云终于到了瓜熟蒂落的时候。随着各大云提供商的持续投入,高性能计算不只是少数传统玩家的专利,而是作为一项新型服务(HPC-as-a-service)向普通用户开放


更多的新用户也能够利用高性能计算技术 / 平台拓展新的业务,或者重构现有的计算应用,同时享受云端的扩展性等福利。

微软Azure上HPC技术支持的发展历程(来源:Azure)


动力:数据量和业务类型的双爆发


一方面,传统的高性能计算应用仍在,然而要处理的数据量已今非昔比

随着数据采集设备的成本下降,以及存储成本的白菜价趋势,近些年来数据量的增产实际上是爆发式的。传统的高性能计算集群,比如超级计算中心的模式,已经很难跟上业务增长的步伐。


另一方面,更为重要的是,各种新型业务开始出现,大大拓展了高性能计算的业务范畴。

其中就包括大家熟悉的,正在风口上的人工智能(AI)和机器学习(ML)。还有基于人体全基因分析的精准医疗,创新药的研发模拟等等。


与之相配套的是大量新型硬件的出现,比如针对通用计算的显卡(GP-GPU),专为TensorFlow设计的TPU,以及各种FPGA专用芯片等等。仅刚刚过去的2018年,这样的新硬件就不下数十种。

这些新型的硬件,在设计之初就充分考虑到了多租户、虚拟化、容器化等新型的系统需求,对于云端高性能计算的快速增长也是功不可没的。

新型硬件:Google TPU(来源:Google)


趋势:巨大的市场潜力


尽管云端的高性能计算还存在这样那样的短板,市场的发展却是势不可挡。

大家开始在云端运行各种高性能计算任务,涉及生命科学、化工、人工智能、汽车设计、精准医疗、数字图像处理等各种科学 / 商业计算场景

高性能计算用户也开始能享受到云计算平台带来的快速部署、可扩展性、多租户、按使用量付费好处


Market Research Future(MRFR)的调查表明,目前大概有25%的企业都有运行高性能计算业务,云端高性能计算在接下来的五年内仍将保持高达21%的年均增长率。

  


END -


你也许有兴趣:

速石短评:Novartis新世代HPC系统的十大策略

闲话高性能计算

从疯涨的房租说起,聊聊资源优化配置那点事儿

一小时内完成百万计算任务?



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存